#estimación de ventaja

Estimación de ventaja basada en representaciones: más que recompensa escalar

GraphAE usa representaciones ocultas del RM para estimar ventajas con grafos. Mejora el RLHF hasta +6.3 en Arena-Hard.

2026-06-10 · 2 min

Estimación de ventaja consciente de representación en RLHF

Descubre cómo GraphAE aprovecha las representaciones ocultas del modelo de recompensa para una estimación de ventajas más precisa en RLHF, mejorando rendimiento hasta +8.27 en AlpacaEval.

2026-06-10 · 2 min